【レポート】はじめての機械学習ワークフローの作り方〜データに集中したいあなたのために〜 AWS-31 #AWSSummit

AWS Summit Tokyo 2023

森田力

2023.04.24

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは。森田です。

本記事はAWS Summit Tokyoで行われたセッション「AWS-31 はじめての機械学習ワークフローの作り方〜データに集中したいあなたのために〜」のセッションレポートです。

セッション視聴

AWS Summit Tokyoの登録を行うことでオンデマンドで視聴可能です。（現地参加された方は改めての登録は不要です。）

セッション概要

スピーカー

アマゾンウェブサービスジャパン合同会社

スタートアップ事業部　ソリューションアーキテクト

尾原颯氏

アジェンダ

Data-Centric について
機械学習ワークフローと Data-Centric
Amazon SageMaker による解決
まとめ

セッション内容

Data-Centric とは
- データの品質などに注力して開発するアプローチ
Model-Centric アプローチ
- 機械学習の選択
- パラメータのチューニングなど
Data-Centric アプローチ
- データをきれいにしていく
  - フォーマットや欠損値
Data-Centric アプローチ効果
- 綺麗なデータと汚いデータで10%精度が違う場合がある
機械学習ワークフローと Data-Centric
- 3 Step
  - データ処理
    - データの収集
    - データのラベルづけ
    - データ探索
    - 特徴量エンジニアリング
  - モデル開発
    - 前処理
    - モデルの選択
    - モデルの学習
    - モデルのチューニング
    - モデル評価
  - デプロイ
    - モデルのデプロイ
- 機械学習プロジェクトが失敗する理由
  - データの品質が不十分
  - データサイエンティストなどの専門職不在
- プロジェクト成功に導くワークフローを構築するために必要なこと
  - 機械学習の知識
  - 高速な試行錯誤
  - 差別化要素への注力
    - より重要になっている
- モデル開発 → デプロイ
  - AutoML などの技術を使った自動化・固定化
- データ処理 → モデル開発
  - ツールを使ったサイクルの高速化
- データ処理に注力（Data-centric）
  - 1つの有効なアプローチで銀の弾丸ではない
Amazon SageMaker による解決
- 構造化データパターン（テーブルデータ）
  - SageMaker Data Wrangler
    - 機械学習用のデータを準備するための最も迅速かつ簡単な方法
      - データ品質の向上と探索
      - データの可視化と理解
      - データのエンリッチ
    - データのアクセス
      - 40種類を超えるデータソースをサポート
    - データの探索と可視化
      - 機械学習を使ってデータ品質の問題を発見
    - 特徴量エンジニアリング
      - GUI で300 以上の組み込み変換
      - カスタム変換も可能
      - Quick Model で期待できるモデル精度を推定
  - SageMaker Autopilot
    - 完全可視性を備えた機械学習モデルを自動的に作成
      - モデル開発を可視化
    - 自動機械学習モデル選択
      - 予測の種類を自動的に推測
    - SageMaker Data Wrangler から連携可能
    - モデルデプロイ
      - リアルタイム予測
      - SageMaker Data Wrangler のデータ処理を予測時にも適用可能
  - SageMaker Canvas
    - 機械学習による正確な予測コード不要で生成
- 非構造化データパターン（画像、文書、音声など）
  - SagaMaker Ground Truth
    - 機械学習向けの高品質なデータセット作成
  - SageMaker JumpStart
    - 数クリックで 350 以上の公開モデルなどを素早く学習し、デプロイする
      - 機械学習のコードを記述する必要なしで始めることができる
Next Step
- ハンズオンで SageMaker Data Wrangler や SageMaker Ground Truth を使い始めてみよう！
  - https://catalog.us-east-1.prod.workshops.aws/workshops/327375b8-425b-49d4-b0da-241da0595ecf/en-US
  - https://aws.amazon.com/jp/getting-started/hands-on/machine-learning-tutorial-label-training-data/

まとめ

本セッションを通して、Data-Centric とは何なのか、Data-Centricのアプローチについて学ぶことができました。

データの前処理を行うか否かで、同じモデルを使用した場合でも精度が10%近く変わることもあり、いかにデータの品質を改善していくことが重要であるかを再確認しました。

また、AWS では、モデルの構築部分を自動化できるサービスが豊富であるため、データに集中できる環境が整っています。

Data Centric に機械学習プロジェクトを始める際には、AWS を利用することで非常に簡単に実現できそうですね！

【レポート】はじめての機械学習ワークフローの作り方〜データに集中したいあなたのために〜 AWS-31 #AWSSummit

セッション視聴

セッション概要

スピーカー

アジェンダ

セッション内容

まとめ

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS